搭载GDDR7的GPU于2025年5月正式上市,其中英伟达GPU RTX 5060首发,高端型号(如RTX 5090)将于2025年年末推出。在此背景下,Rambus半导体IP产品管理总监Nidish Kamath围绕“GDDR7加速AI推理”主题做了分享。
在AI技术快速发展的背景下,GPU显卡面临着更严苛的性能需求。GDDR显存是专为显卡设计的高性能DDR存储器,主要承担图形数据的存储与传输,其工作频率、电压等参数区别于标准DDR内存。RLHesmc
最初,显卡内存兼容CPU内存,当时的显卡主要使用DDR内存。但随着图像处理需求逐年攀升,早期DDR内存因位宽有限,难以满足GPU并行计算需求,导致帧率下降或卡顿。在此基础上,GPU显存慢慢转向GDDR。三星电子1998年推出的首款16 Mb GDDR内存芯片,标志着GPU和CPU内存开始分离。RLHesmc
GDDR具有更高的数据传输速率和带宽,在推动GPU的发展过程中起到了很关键的作用。从GDDR显存诞生以来,到现在共计演进了7个版本(GDDR到GDDR7),每一代都在提升带宽和降低功耗方面有所改进。如今,GDDR7的起始速度达到32 GT/s,比最快的GDDR6内存高60%,比最快的GDDR6X内存高33%。RLHesmc
在GTC 2024上,三星、SK海力士展示的GDDR7内存解决方案代表GDDR7进入商用落地阶段,这两家企业还通过客户合作计划与明确量产时间表,直接推动该技术从实验室走向终端市场。RLHesmc
根据规划,搭载GDDR7的GPU于2025年5月正式上市,其中英伟达GPU RTX 5060首发,高端型号(如RTX 5090)将于2025年年末推出。在此背景下,Rambus半导体IP产品管理总监Nidish Kamath围绕“GDDR7加速AI推理”主题做了分享,同时,他还向《国际电子商情》介绍了Rambus的GDDR7内存控制器IP。RLHesmc
伴随AI下沉到边缘端和终端,轻量化通用模型使之适配专用需求,正成为行业在边缘设备落地AI的主流方式。简化后的专用模型可以把参数量降到更低,又能保证较好的用户体验,不失为一种经济可行的商业模式。RLHesmc
当前,支持生成式AI的手机究竟多大的内存?Nidish Kamath表示,在大语言模型(LLM)的推动下,AI PC和AI智能手机等设备中的设备端AI,已率先适应神经网络赋能的边缘计算和端点应用。为应对边缘与端点设备对带宽和内存容量的爆发式需求,新一代高带宽、低延迟内存技术成为关键解决方案。目前,DDR5、GDDR7及LPDDR5/5X等先进内存已在这些设备中实现规模化应用。RLHesmc
不过,设备类型也限制了支持AI应用的内存选择范围。目前,LPDDR5已被移动设备广泛采用,其性能和带宽足以满足手机AI应用需求,而且还能将功耗控制在较低水平。据Yole Group研究显示,生成式AI的演进正推动移动设备内存需求激增:旧款机型受限于处理能力难以满足要求。当前基础AI功能仅需约100MB内存,但搭载LLM的进阶功能内存需求可能骤增至7GB。RLHesmc
这种内存需求的指数级增长,直接推动了不同内存技术的场景分化。在云端训练端,HBM(高带宽内存)凭借其3D堆叠架构提供的超高带宽,完美适配大模型参数频繁调用的需求;而在边缘侧,GDDR6/7则通过更优的能效比和模块化设计,满足移动设备对LLM推理的实时性要求与成本约束。RLHesmc
Nidish Kamath进一步分析称,最新HBM3E的运行速率为每引脚9.6 Gb/s,单个内存的总带宽可达1.2 TB/s,GDDR7支持每引脚40 Gb/s数据速率,单个GDDR7内存的带宽为160 GB/s。对比之下,在内存带宽上HBM3E与GDDR7的差距明显。RLHesmc
两者的性能差异,主要是因为两种内存结构上的不同。基于2.5D/3D架构的HBM直接集成于GPU芯片内,并包含中介层、处理器及内存堆栈。这种设计使HBM能够在低延迟下实现高带宽性能,并且更加节能,从而能够处理密集型AI训练或机器学习等高性能计算(HPC)任务。RLHesmc
但HBM强大的性能背后是其更高的复杂性,这持续推高了其生产成本。主流边缘和终端设备由于工作负载较轻,一般无需为了获得HBM的强大性能而投入大量成本,GDDR的内存容量和带宽就可以满足其需求。RLHesmc
此外,GDDR采用传统的2D架构并与GPU裸片分离,相较于HBM使用的更复杂的2.5/3D架构,其实现更为简单。这种较低的复杂性和易于实现的特性进一步降低了成本。通过采用PAM3信令技术,GDDR7仍能保持出色的带宽性能,足以满足边缘和终端设备中AI推理应用的需求,因此广受边缘和终端设备设计师的欢迎。RLHesmc
当然,如今正处于生成式AI进入商用化元年,其对内存的性能要求还相对不高,但随着未来更高级的AI功能商用落地,将会对内存有着更高的性能要求(比如带宽、延迟、效率等)。对此,Nidish Kamath称,未来所面临的重大挑战在于“如何在进一步节能的前提下提供更高的性能”。内存为处理器提供高速数据缓冲,互联技术构建处理器间及处理器-内存间的直达通道,二者协同解决海量数据搬运效率问题。RLHesmc
“随着处理器运行速度的加快,我们必须同时加快数据传输速度,无论是处理器之间的数据传输,还是处理器与内存之间的数据传输。此外,我们还必须满足数据传输的功耗要求,确保数据在处理器与内存、处理器与其他处理器之间的通道和链路上能够更高数据速率地可靠传输。这个领域将涌现许多新技术。Multi-PAM将成为支持数据速率持续提升的技术之一。”RLHesmc
但对于内存技术而言,提升单芯片的数据位数本身就是一项挑战。随着存储单元为容纳更多数据位而不断微缩,其他一些需要管控的物理效应也随之而来。其中的问题还包括片上错误。因此,片上纠错技术也将比当前应用得更为广泛。此外,还需应对诸如RowHammer和RowPress等效应,在这些效应下,对特定存储单元的重复或持续访问可能会干扰邻近区域的单元。RLHesmc
以Rambus为代表的行业领先企业,正联合产业伙伴在内存架构创新、信号完整性优化等关键技术领域开展深度研发合作。“我们深知行业当前所面临的种种挑战,亦了解到众多业界顶尖人才正致力于解决这些问题。凭借在高性能内存领域超过30年的深厚经验与积累,Rambus致力于提供行业领先的解决方案,以期始终与最先进的标准同步,并助力构建‘AI 2.0’的新世界,”他介绍道。RLHesmc
与“AI 1.0”相比,“AI 2.0”对内存系统有着新的要求。具体来看,“传统AI”主要专注于基于输入模型进行数据分析和预测,且局限于有限的输入/输出模态(例如文本到网页结果)。比如,典型的“AI 1.0”应用有语音助手、推荐引擎和搜索平台,这些系统在处理相对简单的任务(如语音转语音、文本转文本、语音转文本)方面表现出色,但它们无法处理复杂多样的内容创作。RLHesmc
随着LLM的出现,“AI 2.0”时代开启了跨多种模态的无限创意与创新可能性。LLM能够理解复杂输入(包括文本、图像或语音),并生成从传统文本响应到更高级形式(如代码、图像、视频甚至3D模型)的输出。这种多模态特性在GPT-4、PaLM2、ERNIE 4.0、Inflection-2、Gemini 1.5和Olympus等LLM中均有所体现,并且正在扩展至更多边缘和终端应用场景。RLHesmc
从个性化体验到跨计算架构(云、边缘、终端)的行业特定解决方案,“AI 2.0”应用的迅猛发展对AI训练和推理工作流的内存带宽和容量提出了巨大的要求。例如,在AI训练方面,对应的AI模型规模正迅速扩大——Chat GPT-3的1,750亿参数与Chat GPT-4的1.76万亿参数相比相形见绌,突显出对内存带宽和容量需求的持续增长。RLHesmc
与此同时,许多AI应用正从数据中心向边缘和终端迁移,这也对现有的内存系统提出了更高要求。采用GDDR内存的GPU一直是推理引擎的首选。Rambus GDDR7控制器通过PAM3信令,提供了一种功能齐全、节省带宽的内存实现解决方案,推动了先进GDDR内存在前沿AI加速器、图形处理和高性能计算应用中的使用。RLHesmc
为了提升内存带宽,GDDR7采用PAM3而非NRZ(PAM2)信令。这种新的编码方案可在两个时钟周期内传输“3位信息”,与GDDR6在相同时钟频率下相比,数据传输速率提升50%,将通道性能提升至每引脚40 Gbps。为确保在如此高的运行速度下数据的可靠传输,GDDR7内存整合了先进的RAS(可靠性、可用性与可服务性)机制。这有助于减轻由高频操作及PAM3信令固有特性所带来的信号完整性挑战。RLHesmc
Nidish Kamath介绍说:“Rambus GDDR7控制器通过集成额外的增强型数据完整性功能,包括片上ECC、数据中毒及错误校验等,来满足对更高可靠性的严苛要求。”Rambus GDDR7内存控制器IP提供业界领先的GDDR7性能,单个GDDR7内存可实现最高40 Gbps的传输速率和160 GB/s的可用带宽。其GDDR7内存控制器IP的主要特征包括以下:RLHesmc
据Nidish Kamath介绍,Rambus GDDR7内存控制器的交付内容包括:控制器(源代码)、测试台(源代码)、完整文档。同时,该公司还针对GDDR7内存控制器还提供专家技术支持、维护更新、定制、SoC集成等服务。RLHesmc
他解释说:“在客户的产品设计与开发阶段,出现需要技术支持的问题时,我们可快速协助客户确定问题并提供解决方案,从而缩短客户产品的上市时间。我们还提供综合全面的内存测试支持及第三方PHY集成支持,帮助客户实现完整的GDDR7内存子系统。”RLHesmc
随着2025年英伟达RTX50系GPU量产,GDDR7将进一步推动生成式AI在移动设备的规模化落地。目前,JEDEC已规划Multi-PAM技术路线,目标将GDDR7传输速率提升至48 GT/s,以支撑150亿+参数模型的终端部署。不过,应对万亿参数模型需依赖Multi-PAM升级(48 GT/s)及异构内存架构创新,以平衡性能、功耗与成本。RLHesmc
微信扫一扫,一键转发
关注“国际电子商情” 微信公众号
随着人形机器人赛道愈发火爆,宇树科技备受资本的青睐。
你知道芯片圈也有自己的“Labubu”吗?
黑芝麻智能国际控股有限公司日前宣布,拟通过股权收购及注资方式收购一家AI芯片企业。
美光科技宣布将斥资约2,000亿美元投资美国半导体制造与研发(R&D)。
75%的CEO视供应链中断为最大风险,但仅23%的企业制定AI战略。
AMD通过整合收购公司的技术与人才资源,正逐步构建起一个涵盖硬件、软件、AI等多维度的科技版图。显然,这些收购都有助于改善和增强AMD的人工智能能力,以便能够提供“端到端AI解决方案”。
鸿海6月3日晚间代子公司Foxconn Assembly LLC.公告表示,取得美国德州休斯敦2座厂房租赁使用权,合约租金总额约5,655.38万美元(约合新台币16.98亿元)。
近日,Rambus发布了两款新型PMIC,主要应用于下一代AI PC。Rambus方面表示,新品的发布完善了公司针对三种不同客户端模块外形规格的客户端芯片组。
此次裁员距5月中旬的微软全球裁员不到三周,上一轮裁员涉及到6,000人。
马斯克称回归7x24小时工作状态,还要在工厂打地铺……
得AI者得天下?
继大模型后,“具身智能”成为科技界的新热点,被认为是新一波人工智能(AI)浪潮中的重点方向。
Canalys最新研究,2025年第一季度,印度PC(不含平板电脑)出货量同比增长13%,达到330万台。
近日,行业媒体消息显示,晶圆代工大厂联电(UMC)正考虑在南科收购瀚宇彩晶厂房,以推动其先进封装技术的发展。
美通社消息,2025上海世界移动通信大会(MWC上海),荣耀CEO李健受邀出席人工智能+(AI+)主题论坛,并发表“开放共生,众木
根据VR陀螺的报道,亚洲最大的全渠道眼镜零售商Lenskart近期已与中国AR厂商雷鸟创新签署了一份价值100,000台A
中国依旧是两家企业上榜,联想名列第8位,京东名列第22位。
Canalys(现并入 Omdia)最新数据显示,2025年第一季度,全球真无线耳机(TWS)市场强劲反弹,出货量同比增长18%,达到7800
预计第二季整体营收将恢复至正成长。
近期,全球半导体行业多家企业正经历着一场关键的高层人事调整与深度战略布局。从国际巨头到本土大厂,这些变动
得益于去年同期基数较低以及市场需求回升。
近日,北京赛微电子股份有限公司(以下简称“赛微电子”)出售瑞典Silex Microsystems AB(以下简称“瑞典Silex”)控
注:各大公司财政年度的起始时间不同于自然年,因此会出现财政季度、年度等与自然年不一致的情况。
受政府补贴推动,消费市场延续强劲势头。
IPC(国际电子工业联接协会)正式更名为全球电子协会(Global Electronics Association),开启全新篇章。
“精密测距”(Fine Ranging)
更高性能、更高集成度和更紧凑射频设计
近日,2025 Matter中国区开发者大会在广州盛大举行。本届大会由连接标准联盟中国成员组(CMGC)主办、CSHIA以
由连接标准联盟中国成员组(CMGC)主办的年度智能家居行业盛会——2025 Matter开放日,昨日在广州朗豪酒店隆重举
安森美(onsemi)近日参加了第九届北京国际听力学大会,展示了前沿的听力解决方案。
额定循环次数高达1000万次,为高端消费、航空航天、汽车、医疗和工业应用提供卓越的耐用性和可靠性。
继一年前推出STM32MP25系列后,全新发布的STM32MP23x系列聚焦于成本敏感型工业应用场景,同时保留神经处理单元(N
全球高可靠性电气连接产品和解决方案的领先供应商史密斯英特康(Smiths Interconnect)近日正式公布全球2024年
三十载深耕不辍,三十载砥砺前行。
这一关键的合作伙伴关系推动跨行业下一代远程、高速和低功耗物联网解决方案的发展
2025 年 6 月 11 日至 6 月 13 日,西部数据携企业级存储创新产品亮相第十一届上海国际数据中心产业
点击查看更多
北京科能广告有限公司深圳分公司 版权所有

分享到微信
分享到微博
分享到QQ空间
推荐使用浏览器内置分享
分享至朋友圈